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摘要 : [目的 /意义 ] 在 深度 数字 化 发 展 的 背景 下 ， 数 字 人 文成 为 跨 学 科 深 度 融 合 的 发 展 领域 ， 学 者 
之 间 的 科研 合作 日 益 频 繁 ， 需 要 对 其 日 趋 复杂 的 合作 关系 进行 分 析 与 挖 据 ， 帮 助 学 者 获得 潜在 的 合作 机 会 
以 促进 学 术 交 流 。 [ 方法/ 过程 ] 将 学 者 、 机 构 、 关 键 词 作为 节点 数据 ， 合 著 、 被 引 、 任 职 、 研 究 主题 作 
为 关系 数据 ， 构 建 学 者 合作 图 谱 ， 基 于 图 数据 库 Neo4j 进行 存储 ， 并 利用 Cypher 查询 语言 和 GDS 算法 库 
对 数字 人 文 领域 学 者 的 合作 社区 发 现 、 核 心 学 者 识别 、 合 作 趋 势 预 测 进行 分 析 。[ 结果 / 结论 ] 实验 结果 
证 明 ，Neo4j 数据 库 较 好 地 实现 了 数字 人 文 领域 学 者 合作 网 络 的 构建 和 图 谱 分 析 ， 能 够 帮助 学 者 们 在 众多 
研究 者 当中 快速 地 寻找 与 自己 研究 兴趣 和 方向 高 度 关联 的 跨 学 科学 者 ， 从 而 促进 数字 人 文 领域 学 者 合作 与 


学 科 发 展 。 
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数字 人 文 作为 计算 机 学 科 和 人 文学 科 交 叉 
研究 的 一 个 跨 学 科 领 域 , 涉及 的 学 科 范 围 较 广 ， 
包括 语言 学 、 文 学 、 图 书 情报 学 和 计算 机 科学 
等 ， 由 人 文 计算 领域 发 展 而 来 "。 在 如 今 深度 
数字 化 时 代 ， 数 字 人 文 的 研究 热度 越 来 越 高 ， 


虽然 我 国学 术 界 对 其 研究 起 步 稍 晚 ， 但 发 展 势 
头 迅猛 ， 获 得 了 较 好 的 发 展 前 景 避 。 目 前 ， 我 
国 数字 人 文 的 研究 主要 集中 在 对 国外 数字 人 文 
项 目的 调查 与 分 析 、 利 用 数字 化 技术 对 人 文艺 
术 等 资源 进行 可 视 化 呈现 及 数字 人 文 在 图 情 档 
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rac 
领域 的 应 用 这 三 方面 。 此 外 ， 我 国 在 数字 人 文 
的 教育 方面 也 取得 了 突破 ， 上 海 图 书馆 、 中 国 
人 民 大 学 数字 人 文 研究 中 心 、 武 汉 大 学 数字 人 
文 研究 中 心 、 北 京 大 学 信息 管理 系 KVision 实验 
室 等 科研 机 构 深 入 推进 数字 人 文 和 图 情 档 的 融 
合 发 展 口 。 在 这 样 广阔 的 发 展 平台 下 ， 涌 现 出 
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中 的 合作 关系 所。 学 术 界 内 部 分 学 者 开始 尝试 
使 用 图 数据 库 开 展 社会 网 络 分 析 研究 。 郭 坤 铭 呈 
利用 Neo4j 对 异 构 网 络 中 社会 关系 的 分 析 优 势 ， 

存储 了 百度 百科 上 疏 取 的 人 物 基本 信息 和 关系 ， 
运用 Common Neighbors 算法 进行 网 络 结构 相似 
度 计算 ， 并 利用 节点 属性 相似 度 预 测 所 构建 的 


越 来 越 多 数字 人 文 领 域 的 学 者 ， 催 生出 庞大 复 
杂 的 学 术 研 究 网 络 , 主题 多 样 , 合作 频繁 。 但 是 ， 
如 何在 浩瀚 无 边 的 学 术 资 源 、 学 者 、 机 构 等 信 
息 中 精准 地 找到 自身 需要 的 相关 研究 方向 的 合 
作对 象 是 近 些 年 科研 合作 预测 研究 的 重点 。 
此 ， 对 学 者 合作 关系 网 络 进 行 分 析 ， 有 利于 发 
掘 学 者 合作 的 规律 和 趋势 ， 了 解 核心 科研 团队 
及 研究 主题 ， 对 把 握 此 领域 的 发 展 状况 具有 重 
要 意义 ,进而 推动 数字 人 文 研 究 的 发 展 和 创新 。 

学 者 合作 网 络 是 相关 领域 学 者 在 科研 创作 
中 因 合 著 或 被 引 关系 而 形成 的 复杂 关联 网 络 。 
学 者 合作 网 络 可 以 加 强 学 者 之 间 的 交流 ， 对 于 
知识 共享 、 思 维 方式 、 科 研 创 新 等 方面 的 进步 
有 着 不 容 小 筑 的 作用 。 因 此 ， 目 前 越 来 越 多 的 学 
者 开始 关注 合作 关系 的 研究 ， 其 中 大 多 采用 社会 
网 络 分 析 方 法 ， 刘 培 外 、 刘 志 辉 PIS pip O 4E 
学 者 基于 社会 网 络 分 析 法 和 关键 词 耦合 分 析 法 
挖掘 分 析 作 者 潜在 的 合作 关系 并 构建 合作 网 络 。 
具体 到 数字 人 文 领域 ， 徐 晨 飞 等 运用 文献 信息 
统计 分 析 工 具 以 及 社会 网 络 分 析 方 法 对 作者 合 
著 网 络 的 网 络 结构 特征 、 中 心性 、 核 心 一 边缘 
结构 以 及 小 型 合 车 网 络 展开 分 析 ， 总 结 该 领域 
的 科研 合作 特征 中， 富 雪 等 通过 高 频 关 键 词 双 
聚 类 分 析 以 及 对 合 著 网 络 和 合 著 机 构 进 行 社 会 
网 络 分 析 ， 从 多 角度 探讨 了 当前 国内 数字 人 文 
研究 的 整体 状况 及 研究 热点 外。 

近年 来 ， 开 源 或 商用 的 图 数据 库 不 断 涌 
现 ， 主 流 的 图 数据 库 包括 国内 的 GDBÜ, Huge 
Graph"! 以 及 国外 的 Neo4j""、Tiger Graph"?! 等 。 
这 些 图 数据 库 集成 了 大 量 的 社会 网 络 分 析 方法 
与 应 用 ， 主 要 包括 中 心性 、 路 径 查 找 、 链 接 预 
测 、 社 区 检测 和 图 可 视 化 等 ， 有 助 于 发 现 知识 
图 谱 中 的 潜在 知识 ， 也 能 更 好 地 发 现 社会 网 络 


异 构 网 络 中 的 人 物 社会 关系 。M. Kolomeets 等 1 
利用 图 数据 库 OrientDB 构建 了 VKontakte 社交 
网 络 ， 使 用 PageRank 评估 了 社交 群体 中 最 具 影 
响 力 的 意见 领袖 。 丁 洪 丽 59 基于 人 员 信 息 和 话 
单 等 数据 ， 采 用 Neo4j 构建 了 多 维 关系 网 络 并 
进行 可 视 化 ， 利 用 Neo4j 中 的 查询 分 析 功 能 挖 
掘 人 员 关 系 ， 使 得 实验 效率 大 幅 提升 。 相 较 于 
传统 的 社会 网 络 分 析 工 具 ， 图 数据 库 能 够 展示 
大 规模 实体 之 间 不 断 更 新 的 庞大 复杂 关系 ， 同 
时 也 能 够 使 得 网 络 节 点 和 关系 值 间 的 查询 更 加 
简单 快捷 ， 在 映射 真实 实体 和 关系 方面 具有 天 
然 优 势 "71。 

针对 数字 人 文 领域 中 日 益 错 综 复杂 的 学 术 
社交 网 络 ， 如 何 对 领域 内 的 学 者 合作 关系 进行 
分 析 和 挖 据 逐渐 成 为 该 领域 的 一 个 研究 重点 。 
虽然 传统 的 社会 网 络 工具 能 够 在 一 定 程度 上 对 
学 者 合作 网 络 进行 分 析 ， 但 对 异 构 数据 的 处 理 
仍 有 不 足 ， 日 不 具备 图 数据 库 的 实时 查询 、 预 
测 推 理 、 因 果 关 系 分 析 等 功能 WI。 以 Neo4j 为 
主流 的 图 数据 库 工 具 对 多 种 关系 数据 的 处 理 较 
为 灵活 ， 有 望 弥补 这 些 不 足 。 本 文 将 在 上 述 人 研 
究 的 基础 上 ， 运 用 Neo4j 实现 数字 人 文 领域 学 
者 合作 关系 的 构建 与 存储 ， 并 利用 其 强大 的 查 
询 分 析 功 能 ， 快 速 便捷 地 查找 相关 学 者 并 进行 
其 合作 关系 的 图 谱 分 析 ， 以 期 为 相关 领域 的 数 
字 人 文人 研究 提供 参考 。 


Q EREJE Neo4j 及 其 应 用 优势 


1.1 图 数据 库 Neo4j 

随 着 互联 网 的 不 断 发 展 ， 面 对 当下 高 并 发 
的 海量 大 数据 和 实时 应 用 情景 ， 图 数据 库 以 其 
易学 、 方 便 操作 、 高 效 处 理 复杂 关系 等 独特 的 
优势 备 受 企业 和 学 者 的 关注 ， 它 以 图 形 数据 结 
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构 存 储 实体 及 其 相互 关系 ， 由 节点 、 属 性 和 边 
构成 ， 其 中 节点 表示 数据 实体 ， 属 性 是 节点 的 
附属 信息 ， 边 表示 市 点 之 间 的 关系 ， 适 合 对 关 
联 关系 复杂 、 动 态 关 系 多 变 的 庞大 数据 进行 存 
储 和 管理 中。 与 传统 的 关系 型 数据 库 相 比 ， 
数据 库 处 理 的 是 非 结 构 化 和 不 可 预知 的 数据 ， 
更 符合 现在 数据 爆炸 式 增长 与 用 户 个 性 化 需求 
的 特点 ， 并 且 有 效 支 持 实体 间 的 关联 关系 ， 当 
加 入 新 标签 及 新 关系 时 ， 不 需要 调整 先前 的 结 
构 ， 拥 有 多 层 关 联 、 最 短路 径 、 集 中 度 测量 等 
多 种 扩展 功能 ， 在 社交 网 络 、 推 荐 系统 、 关 系 
图 谱 等 场景 应 用 广泛 , 是 大 数据 时 代 的 新 利器 。 

常见 的 图 数据 库 有 Neo4j、Flock DB、 
Graph DB, AllegroGrap 等 类 型 ， 其 中 ， 开 源 的 
Neo4j 以 其 高 性 能 、 高 稳定 性 、 可 扩展 性 强 等 
优势 成 为 当前 应 用 最 为 广泛 的 原生 图 数据 库 之 
一 已 。 它 采用 原生 图 存储 和 处 理 数据 ， 反 映 了 
关系 网 络 中 实体 联系 的 本 质 ， 在 查询 中 能 以 快 
捷 的 路 径 返 回 关 联 数据 ， 表 现 出 非常 高 效 的 查 
询 性 能 ; 支持 非 结 构 化 数据 的 存储 与 大 规模 数 
据 的 增长 ， 能 很 好 地 适应 需求 的 变化 ， 具 有 很 
大 的 灵活 性 。 此 外 ， 它 还 可 以 对 实体 间 复 杂 的 
关系 进行 分 析 与 推理 ;支持 逻辑 语言 分 析 与 面 
向 约束 的 推理 。Neo4j 拥有 自己 的 查询 语言 一 一 
Cypher 语言 ， 它 是 一 种 面向 图 分 析 、 声 明 式 、 
表达 能 力 强 的 描述 性 图 形 查 询 语言 趾 ， 对 用 
户 十 分 友好 ， 操 作 简 便 ， 主 要 使 用 的 关键 字 有 
create ( 主要 用 于 创建 图 形 节点 、 关 系 及 属性 ) 、 
match ( 在 已 有 图 形 数据 库 中 匹配 目标 信息 ) 、 
where (是 match 功能 的 条 件 ) 、return ( 完成 匹 
配 后 ， 返 回 指定 值 ) ， 基 于 这 些 查 询 语句 实现 
对 图 形 数据 的 分 析 与 推理 。 
1.2 Neo4j 分 析 学 者 合作 网 络 的 优势 

随 着 网 络 技术 的 快速 发 展 以 及 跨 学 科研 究 
的 日 益 突 出 ， 学 者 之 间 的 合作 关系 也 呈现 复杂 
多 样 的 特点 ， 产 生 了 越 来 越 多 的 非 结 构 化 关联 
网 络 数据 ，Neo4j 图 数据 库 正 是 一 个 能 够 适应 异 
构 数 据 大 规模 增长 和 需求 不 断 变化 的 数据 库 ， 
它 没有 模式 结构 的 定义 ， 使 用 非 结构 化 的 方式 
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来 存储 关联 数据 ， 不 但 适应 能 力 强 ， 而 且 自 始 
至 终 都 可 以 保持 高 效 的 查询 性 能 ， 因 此 在 处 理 
学 者 之 间 复 杂 关 系 时 显现 出 了 独特 的 优势 。 
1.2.1 反映 学 者 之 间 复 杂 的 合作 关系 

合作 关系 是 指 学 者 们 在 学 术 研 究 过 程 中 所 
进行 的 合作 行为 。 常 见 的 学 者 合作 关系 包括 合 
车 关系 和 引用 关系 。 在 学 术 网 络 中 ， 如 果 两 个 
学 者 的 合 著 行 为 越 频 繁 ， 那 么 他 们 更 有 可 能 兴 
趣 相 似 且 彼此 信任 ， 除 此 之 外 ， 学 者 的 合 著者 
也 会 与 其 他 学 者 产生 合 车 行为 ， 基 于 这 种 学 者 
间 的 合作 关系 便 构 建 了 学 者 合 著 网 络 ， 这 种 关 
系 可 以 采用 图 结构 存储 ， 在 此 基础 上 ， 可 以 采 
取 社 会 网 络 分 析 法 和 图 挖 据 算法 对 学 者 间 的 关 
系 进 行 分 析 与 聚 类 ， 从 而 发 现 最 为 匹配 的 合作 
者 及 合作 团队 。 男 外 ， 学 者 间 的 男 一 种 合作 关 
系 为 引用 关系 ， 其 被 分 为 引用 与 被 引 ， 基 于 这 
两 种 引用 行为 ， 学 者 间 构 成 了 引文 网 络 ， 是 施 
引文 献 与 被 引 成 果 的 纽带 ， 反 映 了 引用 者 的 借 
鉴 、 青 定 以 及 相关 问题 的 深层 次 研究 。 通 常 根 
据 这 样 的 引用 关系 实现 资源 聚合 与 学 者 聚合 ， 
以 学 者 为 节点 ， 以 文献 之 间 的 引用 关系 作为 节 
点 之 间 的 联系 边 ， 以 此 构建 相关 引用 文献 之 间 
的 引用 网 络 ， 从 而 更 好 地 从 引文 关系 网 络 中 挖 
掘 出 核心 学 者 或 核心 团队 。 不 管 是 哪 种 合作 关 
系 ， 随 着 相关 问题 研究 的 多 元 化 ， 学 者 间 的 合 
作 关 系 也 越 来 越 复杂 ， 而 Neo4 恰好 可 以 存储 
并 反映 这 种 量 大 、 复 杂 而 又 变化 的 关联 数据 ， 
支持 大 规模 数据 的 增长 与 更 新 ， 且 可 清晰 呈现 


各 节点 之 间 的 关联 关系 。 
1.2.2 实时 查询 目标 学 者 的 合作 关系 
除了 存储 功能 ， 图 数据 库 Neo4j 的 检索 功 


能 也 非常 强大 ， 这 依赖 于 Cypher 查询 语言 ， 它 
是 一 种 声明 式 图 数据 库 查 询 语言 ， 用 法 简洁 且 
表现 力 丰 富 , 查询 效率 高 ， 拥 有 良好 的 扩展 性 ， 
用 户 可 以 定制 自己 的 查询 方式 。 在 检索 功能 
Cypher 语言 由 start, match, where, return 4 个 
部 分 组 成 : O start 表示 在 图 中 指定 一 个 或 多 个 
起 始 节 点 ， 通 过 索引 查找 获得 ， 也 可 以 通过 节 
点 的 编号 直接 获得 ; © match 用 于 图 形 的 匹配 模 
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式 ， 也 是 进行 实例 具体 化 的 重要 部 分 ; © where 


提供 过 滤 模 式 匹 配 结果 的 条 件 ; os 
指明 在 已 经 匹配 查询 的 数据 中 ， 哪 些 节 点 、 关 
系 和 属性 是 需要 返回 给 客户 端的 。 
历 查找 的 过 程 ， 容 易 定 位 聚焦 到 想 要 了 解 的 学 
者 节点 ， 再 利用 条 件 的 匹配 ， 得 到 目标 学 者 的 
le dle de Neo4j 
还 支持 实时 更 新 图 数据 库 ， 且 不 影响 已 有 的 数 
据 结构 ， e A 
展示 越 来 越 完 备 复杂 的 合作 关系 网 络 。 
1.2.3 预测 学 者 之 间 洪 在 的 合作 趋势 

目前 人 物 关 系 推理 的 方法 主要 有 两 种 : 
基于 本 体 的 方法 和 基于 图 数据 库 的 方法 P 
基于 本 体 的 人 物 关系 推理 时 间 复 杂 度 较 高 ， 
推理 速度 随 人 物 关系 数据 量 的 增多 而 迅速 降 
低 ， 难 以 满足 大 数据 时 代 下 的 人 物 关 系 推理 
需求 ， 而 基于 图 数据 库 的 人 物 关 系 推理 是 人 
物 关系 数据 分 析 的 新 趋势 。 图 数据 库 的 数据 
存储 结构 和 数据 查询 方式 都 以 图 论 为 基础 ， 
适用 于 含有 大 量 联 系 的 人 物 关 系数 据 的 增加 
查 改 ( CRUD ) 。 基 于 图 数据 库 的 人 物 关系 推 
理 方法 ,首先 将 人 物 关系 数据 转换 为 图 数据 
库 的 存储 方式 ， 然 后 采用 图 数据 库 查询 语言 
进行 人 物 关系 分 析 "1。 作 为 支持 效率 高 、 扩 
展 性 强 的 声明 式 图 查询 语言 及 具有 丰富 开发 


Author Organ Title Keywords 
Xj cp 383885; Ej T Z SERI 5E Ufo) Ui T PI B TRU Gr FARFAR ERA UA); BE B TRE 3E CE 
RCPHLÉGAS: 南京 理工 大 学 经 济 管 数字 人 文 视 域 下 文化 遗产 众 包 研究 综述 文化 遗产 
左 娜 张卫东; 吉林 大 学 管理 学 院 ， 数 字 人 文 多 主体 共生 分 析 框架 及 其 关键 问题 


门 大 学 中 文系 ， “数字 人 
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模式 的 图 数据 库 系 统 ，Neo4j 存储 学 者 关系 知 
识 图 谱 具 有 不 可 比拟 的 优势 ,复杂 的 关系 链 
接 也 使 其 具备 了 推理 能 力 ， 从 而 预测 学 者 潜 
在 的 合作 趋势 ， 为 不 同 领域 、 不 同学 科 的 科 
研 合作 提供 可 能 的 研究 方向 。 


e 基于 图 数据 库 Neo4j 的 学 者 合作 
关系 图 谱 构建 


2.1 数据 的 选择 与 获取 

本 文选 取 中 国 知 网 学 术 资 源 总 库 中 的 
CSSCI 期 刊 作 为 数据 来 源 进行 数据 获取 ， 以 “ 数 
字 人 文 ”或 “人 文 计算 ”为 主题 进行 检索 ， 截 
至 2021 年 4 月 3 日 ， 共 检索 到 615 篇 文献 。 通 
过 NoteExpress 文献 管理 需 对 数据 进行 预 处 理 ， 
删除 重复 文献 、 会 议 征文 、 与 数字 人 文 主题 不 
太 相 关 的 文献 ， 最 终 获得 有 效 文献 334 篇 。 对 
于 多 位 作者 署名 的 文献 ， 本 文 统 一 选取 前 三 位 
作者 作为 研究 对 象 ， 经 过 重复 项 去 除 后 ， 获 得 
410 个 学 者 节点 ，244 个 机 构 节 点 和 636 个 关键 
词 节 点 ， 数 据 处 理 结果 示例 见 图 1; 然后 利用 
Python 获取 学 者 与 学 者 之 间 的 合 著 、 被 引 关 系 ， 
学 者 与 机 构 之 间 的 工作 关系 和 学 者 与 关键 词 之 
间 的 研究 主题 关系 数据 ， 本 文 主要 基于 上 述 3 
种 节点 和 4 种 关系 对 学 者 合作 关系 进行 图 谱 构 
建 ， 数 据 模型 见 图 2。 
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图 1 "m 雪 果 示例 


2.2 数据 文件 的 导入 

图 数据 要 具体 存储 到 图 数据 库 中 ， 就 涉及 
到 了 特定 的 图 数据 模型 ， 即 关于 采用 什么 实现 
方式 来 存 图 数据 的 问题 。 常 见 的 图 数据 模型 有 
属性 图 、 超 图 和 三 元 组 。 由 于 属性 图 模型 直观 
且 易 于 理解 , 能 够 描述 绝 大 部 分 图 的 使 用 场景 ， 
Neo4j 采用 的 便 是 当下 最 流行 的 属性 图 模型 。 首 
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先 ， 将 节点 和 关系 数据 的 Excel 文件 都 另存 为 
“esv” 文件 ; 然后 利用 Cypher 语言 的 create 语 句 ， 
将 节点 文件 和 关系 文件 按照 代码 示例 ， 见 图 3, 
输入 到 代码 编辑 区 ; 最 后 运行 结果 见 图 4， 清晰 
地 展示 了 节点 的 个 数 、 关 系 的 对 数 以 及 学 者 合 
作 关 系 图 谱 。 具 体 于 某 一 节点 ， 以 中 国 社会 科 
学 院 文学 研究 所 为 例 ， 通 过 此 节点 可 查询 到 在 
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这 个 机 构 工作 的 两 位 学 者 ,进而 其 合作 的 学 者 、 
研究 主题 等 相关 关系 得 到 清晰 的 呈现 ， 见 图 5。 
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/导入 节点 《以 学 者 为 例 ) 
LOAD CSV WITH HEADERS FROM ‘file:/// 


author.csv' AS line 

CREATE (s: author (Author: line.Author]) 

1/ 导入 关系 《以 学 者 -学 者 的 合 著 关 系 为 例 ) 
LOAD CSV WITH HEADERS FROM ‘file:///au- 
co.csv' AS line 

MATCH(from: author (Author: line. from _ 
author] ), 

(to: author( Author: line.to author] ) 

MERGE (from)-[r: cooperation] 一 (to) 
/查询 所 有 节点 及 关系 

match (s) return s 


图 4 学 者 合作 关系 图 谱 构建 样 例 


图 3 导入 数据 代码 示例 


SS 


图 5 具体 实例 展示 
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Q 基于 图 数据 库 Neo4j 的 学 者 合作 
图 谱 分 析 


面 对 庞大 复杂 的 非 结 构 化 关系 数据 ， 图 数 
据 库 Neo4j 为 技术 的 应 用 提供 了 有 效 的 解决 途 
径 ， 但 是 通过 梳理 国内 相关 文献 可 知 ， 目 前 利用 
Neo4j 的 内 骨 图 算法 和 Cypher 查询 语言 进行 数 
据 分 析 与 处 理 的 研究 相对 较 少 ， 本 文 将 充分 利用 
Neo4j 强大 的 图 算法 功能 这 一 优势 ， 对 数字 人 文 
研究 领域 的 学 者 合作 网 络 进行 分 析 。Neo4j 的 算 
法 库 Graph Data Science ( GDS ) 可 以 实现 各 种 
复杂 的 社会 网 络 分 析 ， 包 括 centrality algorithms 

(中 心性 算法 ) 、community detection algorithms 

(社区 检测 算法 ) path finding algorithms ( 路 
径 查 找 算法 ) link prediction algorithms ( 链 路 
预测 算法 ) 等 。 本 文通 过 采用 相关 图 算法 ， 实 现 
学 者 合作 社区 的 发 现 、 核 心 学 者 的 识别 以 及 学 者 
合作 趋势 的 预测 ， 从 不 同 角度 为 数字 人 文 领域 学 
者 寻找 自己 的 合作 对 象 和 资源 提供 借鉴 。 
3.1 合作 社区 发 现 

近年 来 ， 数 字 人 文 技术 快速 发 展 ， 吸 引 
了 越 来 越 多 的 学 者 对 相关 问题 进行 广泛 而 深入 
的 研究 ， 因 而 构成 了 复杂 的 学 者 网 络 ， 社 区 结 
构 便 是 复杂 网 络 中 的 一 个 重要 性 质 ， 体 现 为 社 
区 中 的 节点 紧密 相连 且 不 同 社区 的 节点 稀 玖 连 
接 中 。 它 可 以 对 有 相似 特征 或 共同 属性 的 学 
者 进行 聚 类 ， 帮 助 学 者 发 现 并 找到 有 具有 相似 兴 
趣 的 同行 或 可 以 相互 交流 的 跨 学 科 合 作者 。 在 
Louvain 、Label Propagation 、infomap 等 社区 检 
测算 法 中 , Louvain 在 效率 和 效果 上 都 表现 较 好 ， 
并 能 够 发 现 层次 性 的 社区 结构 。 郭 理 等 PU 使 用 
经 典 数 据 集 American College Football 对 Louvain 
算法 与 常用 重 琶 社区 发 现 算法 CPM, LFM 和 
COPRA 进行 实验 对 比 ， 结 果 表 明 Louvain 算法 
明显 优 于 其 他 的 算法 。G. Drakopoulos 等 P?! £f 
对 Twitter 上 的 社交 信息 ， 在 Neo4j 中 构建 了 争 
议 性 话题 和 普通 性 话题 两 个 社交 网 络 图 ， 分 别 
使 用 Lonvain 、Edge Betweeness, Walktrap 以 及 
CNM 等 4 种 社区 发 现 算法 进行 评估 ， 实 证 发 现 
Louvain 算法 产生 的 社区 聚集 性 较 高 ， 社 区 成 员 
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的 联系 最 为 紧密 。 因 此 ， 本 文选 用 Louvain 方法 
在 已 构建 学 者 合作 网 络 中 检测 社区 以 实现 对 学 
者 的 模块 化 聚 类 ， 从 而 更 好 地 分 析 学 者 聚集 分 
区 的 特点 以 及 它们 加 强 或 分 散 的 趋势 。 在 GDS 
中 应 用 Louvain 算 法 共 发 现 100 个 学 者 合作 社区 , 
部 分 结果 见 图 6， 按 社区 规模 降序 呈现 。 其 中 最 
大 的 社区 包含 26 个 学 者 ， 学 者 邓 君 、 王 阮 、 钟 
楚 依 、 宋 先 智 和 孙 绍 丹 之 间 合 著 频 率 较 高 ， 他 
们 就 数字 人 文 视角 下 的 历史 项 目 进 行 分 析 研 究 ; 
贺 晨 芝 和 徐 孝 娟 对 图 书馆 数字 人 文 众 包 项 目 进 
行 实践 研究 ; 李 道 新 从 电影 艺术 的 角度 分 析 了 
数字 人 文 的 应 用 路 径 等 。 由 此 可 见 ， 在 模块 化 
的 社区 里 有 合 著 频 次 较 高 的 学 者 ， 也 有 跨 学 科 
相互 引用 的 学 者 ， 同 一 社区 的 学 者 关联 紧密 程 
度 较 高 , 他 们 有 着 相通 的 研究 方向 和 研究 热点 ， 
表现 出 高 度 相似 性 。 与 此 同时 ， 图 7 的 学 者 合 
作 关 系 图 谱 也 清晰 地 展现 了 不 同 社区 学 者 的 分 
布 及 其 紧密 程度 ， 相 同 颜色 的 节点 代表 其 处 于 
同一 个 社区 ， 研 究 主题 相似 的 同时 不 同学 者 之 
间 相 互 引 证 ， 进 一 步 加 强 了 学 者 之 间 的 关联 程 
度 ， 为 知识 的 交流 与 共享 提供 学 习 平台 。 
3.2 核心 学 者 识别 

核心 学 者 是 指 在 某 个 研究 领域 内 研究 成 
果 数 量 较 多 、 学 术 影响 力 较 大 、 为 该 领域 发 展 
做 出 贡献 的 学 者 ， 他 们 是 推动 该 领域 学 术 进步 
的 中 坚 力量 外。 核心 学 者 的 分 析 为 学 者 们 开 
展 研究 提供 便利 ， 帮 助 其 全 面 地 查询 到 自己 感 
兴趣 的 核心 学 者 群 并 快速 查阅 到 该 领域 的 核心 
科技 文献 ， 从 而 快速 了 解 该 领域 研究 的 现状 与 
不 足 ， 为 自己 深入 研究 商定 坚实 的 基础 。 中 介 
中 心性 (Betweenness Centrality ) 算法 是 网 络 
中 心性 衡量 的 经 典 指 标 ， 本 文 利用 GDS 中 的 
Betweenness Centrality 算法 来 衡量 学 者 网 络 中 不 
同 节 点 的 重要 性 ， 即 检测 其 中 一 个 节点 对 图 中 
信息 流 的 影响 程度 。 该 算法 计算 一 个 网 络 中 所 
有 节点 对 之 间 的 未 加 权 最 短路 径 ， 每 个 节点 根 
据 通过 该 节点 的 最 短路 径 的 数量 得 到 一 个 分 数 ， 
更 频繁 地 位 于 其 他 节点 之 间 最 短路 径 上 的 节点 
的 得 分 更 高 。 
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图 7 学 者 合作 社区 部 分 关系 图 谱 


在 GDS 中 ，Betweenness Centrality 算法 通 
过 对 410 位 学 者 的 最 短路 径 进行 打分 ， 按 照 分 
数 降 序 排 列 的 同时 给 每 位 学 者 赋予 一 个 编号 ， 
识别 结果 见 表 1。 学 者 刘炜 得 分 最 高 ， 赵 宇 翔 次 


之 。 得 分 越 高 ， 说 明 这 些 学 者 在 数字 人 文 研究 
领域 的 活路 度 较 高 ， 同 时 也 说 明 他 们 在 此 领域 
建树 颇 丰 并 有 着 较 高 的 学 术 影 响 力 。 根 据 识 别 
结果 数据 绘制 散 点 图 ， 如 图 8 所 示 ， 在 节点 16 
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后 出 现 了 明显 的 断崖 式 下 降 ， 由 此 初步 认为 前 
16 位 学 者 可 被 识别 为 数字 人 文 领域 研究 的 核心 
学 者 ， 在 这 些 核心 学 者 中 ,刘炜 和 夏 浴 娟 工作 
于 上 海 图 书馆 ,， 朱 学 芳和 叶 订 工作 于 南京 大 学 ， 
赵 宇 翔 工作 于 南京 理工 大 学 ， 王 晓 光 工作 于 武 
汉 大 学 等 ， 从 一 定 程度 上 可 以 反映 出 这 些 学 者 
的 工作 单位 是 其 科学 研究 的 主要 阵地 ， 以 他 们 
为 代表 拥有 着 该 领域 研究 的 核心 团队 ， 他 们 带 
领 自己 的 学 生 及 合作 者 深入 地 开展 着 数字 人 文 
的 研究 ， 成 果 顾 多 。 其 中 ， 上 海 图 书馆 主持 有 
关于 数字 人 文 的 国家 哲学 社会 科学 基金 项 目 ， 
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夏 染 娟 和 刘炜 学 者 是 数字 人 文 团队 中 的 重要 成 
fà, 其 团队 基于 数字 人 文 构建 了 家 谱 知 识 服务 
平台 ""、 名 人 手稿 档案 库 中 、 中 文 古 籍 联合 目 
录 及 循 证 平台 中 等， 在 国内 将 数字 人 文 的 研究 
和 应 用 推 向 新 的 发 展 阶段 。 为 了 进一步 清晰 地 
反映 核心 学 者 ， 可 利用 Neo4j 所 呈现 的 图 谱 中 
学 者 节点 的 大 小 来 反映 其 在 数字 人 文 研究 领域 
中 所 处 的 位 置 ， 如 图 9 所 示 ， 节 点 越 大 ， 其 学 
影响 力 越 大 。 这 对 于 相关 研究 者 找寻 领域 内 
核心 学 者 具有 重要 参考 意义 ， 且 更 加 方便 快捷 ， 
清晰 明了 。 


表 1 部 分 核心 学 者 识别 结果 


Order (序号 ) Node CHA) Score (得 分 ) Order (序号 ) Node (节点 ) Score (得 分 ) 
1 刘炜 11 516.430 10 左 娜 4 384.182 
2 赵 宇 翔 11 374.860 11 黄 水 清 3 704.112 
3 REF 9 463.338 12 IU ERE 2 982.959 
4 欧阳 剑 8 295.446 13 Ire 2 904.088 
5 EE 5 082.038 14 EXE 2 820.388 
6 XKE 4 649.169 15 卢 章平 2 734.507 
7 张卫东 4 522.494 16 王晓光 2 212.367 
8 ÆJ 4433.821 PPP LLL Sr LLLLLLLLLLLL| 
9 FE 4 433.689 410 XJ OE 0 
12000 
* 
11000 |: 
10000 |: 
e 
9000 |: 
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8 核心 学 者 识别 的 得 分 散 点 图 
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9 部 分 核心 学 者 关系 图 谱 


3.3 合作 趋势 预测 

在 大 数据 时 代 ， 学 术 研 究 的 合作 化 趋势 日 
益 明 显 ， 作 为 科研 活动 的 重要 组 成 部 分 ， 合 作 
形式 在 提升 科研 效率 、 促 进 科 研 产 出 时 发 挥 着 
极其 重要 的 作用 。 研 究 表明 ， 在 过 去 的 20 多 年 
里 ， 各 个 学 科 中 的 合作 研究 的 数量 都 呈 显 著 增 
长 趋势 ， 具 有 相同 研究 领域 、 相 似 研究 方向 的 
学 者 更 易于 在 未 来 进行 合作 m", 但 是 , 由 于 时 间 、 
空间 位 置 的 阻碍 ， 学 者 们 很 难 在 浩如烟海 的 学 
者 群体 里 准确 找到 与 自身 研究 方向 相近 的 学 者 ， 
分 析 挖 掘 学 者 潜在 的 合作 对 象 可 以 有 效 提高 其 
科研 效率 。 本 文 利 用 GDS 中 的 链 路 预测 算法 对 
节点 之 间 的 接近 度 进行 计算 ,从 而 帮助 学 者 找 
到 潜在 的 合作 机 会 。 

链 路 预测 算法 是 指 通 过 已 知 节点 的 特征 信 
息 以 及 网 络 拓扑 结构 ， 预 测 尚未 产生 连接 的 节 
点 对 之 间 出 现 连 边 的 可 能 性 。 常 见 的 链 路 预测 
算法 包括 基于 邻居 节点 的 链 路 预测 以 及 基于 共 
有 邻居 的 链 路 预测 ， 其 中 基于 邻居 节点 的 算法 
包括 所 有 邻居 (total neighbors ) 以 及 连接 偏好 
( preferential attachment ) 等 ， 基 于 共有 邻居 的 
算法 包括 共有 邻居 (common neighbors) 、 资 
源 优 化 (resource allocation ) 以 及 AA (adamic 
adar) 算 法 F Pl, D. Liben-Nowell 等 P? T. 
Zhou 等 后 通过 实验 对 多 种 链 路 预测 算法 对 比分 


析 发 现 AA 算法 效果 相对 较 优 。AA 算法 基于 共 
有 邻居 的 相 邻 节点 集合 ， 并 对 集合 数量 进行 非 
线性 归 一 化 处 理 ， 计 算 两 个 节点 的 紧密 度 ， 其 
预测 网 络 中 学 者 合作 链接 的 公式 如 下 所 示 : 


1 
A = TOI NGN] 
(x, y) Ženo Toe NGD 公式 (1) 


在 该 公式 中 ， 当 计算 结果 的 值 为 0 时 ， 表 
示 两 个 节点 不 靠近 ; 当 值 越 大 时 则 表示 节点 越 
靠近 。 

在 上 述 学 者 合作 社区 发 现 分 析 中 ， 相 较 于 
不 同 社区 来 说 , 同一 社区 学 者 的 合作 关系 更 为 紧 
密 , 但 是 尽管 在 同一 社区 ,他 们 的 合作 也 存在 跑 
密 之 分 ， 本 文选 取 第 四 大 学 者 合作 社区 ， 以 核 
心 学 者 “刘炜 ”为 研究 对 象 ， 利 用 上 述 公 式 和 
Cypher 查询 语言 “MATCH (sl:author{Author:“ 刘 
KE?’ Y MATCH (s2:author(Author: **' }), RETURN 
gds. alpha. linkprediction. adamicAdar (s1, s2) AS 
score” 计 算 并 呈现 刘炜 与 其 同一 社区 中 其 他 学 
者 的 可 能 链接 程度 ， 预 测 值 分 数 见 表 2。 其 中 
刘炜 和 赵 宇 翔 可 能 产生 链接 关系 的 得 分 最 高 ， 
说 明 他 们 发 生 合作 的 可 能 性 最 大 ， 而 刘炜 和 汪 
莉 进行 合作 的 可 能 性 则 最 小 。 与 此 同时 ， 通 过 
Cypher 查询 语句 将 刘炜 所 在 的 社区 的 学 者 合作 
关系 图 谱 进 行星 现 ， 见 图 10。 这 个 图 表明 了 同 
一 社区 的 学 者 关联 紧密 ， 但 其 中 也 存在 少 部 分 
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学 者 之 间 未 建立 直接 的 合作 关系 ， 如 刘炜 与 鹤 
AE. VDER. XA, ERA 4 位 学 者 ， 相 对 应 
他 们 的 合作 链接 预测 值 也 较 低 。 通 过 分 析 表 2 
和 图 10 不 难 发 现 , 在 已 产生 直接 连接 的 学 者 中 ， 
宋 士 态 得 分 最 低 ， 此 分 数 可 确定 为 产生 新 链接 
的 最 低 国 值 ， 即 当 未 发 生 直 接连 接 的 两 个 学 者 
得 分 大 于 这 个 阐 值 时 ， 则 能 说 明 其 更 能 产生 链 
接 ， 其 合作 的 可 能 性 更 大 。 由 此 可 以 看 出 刘炜 
与 岭 员 莲 、 曾 辉 、 刘 洪 更 能 进行 有 效 的 科研 交流 ， 
合作 趋势 较为 明显 。 

综 上 所 述 ，Neo4j 的 语句 查询 和 算法 分 析 功 
能 是 学 者 合作 趋势 预测 的 有 效 工 具 ， 为 学 者 寻 
找 自己 的 合作 伙伴 节省 时 间 ， 提 高 合作 效益 。 
在 学 者 交流 活动 日 趋 频繁 的 背景 下 ， 科 研 合 作 
已 然 成 为 学 者 推动 学 术 人 研究 发 展 的 必要 形式 ， 
学 者 间 的 合作 越 多 样 多 元 ， 那 么 该 领域 的 学 术 
交流 氛围 越 活跃 高 效 ， 不 同 的 思维 碰撞 推动 数 
字 人 文 领域 的 多 元 化 、 路 学 科 式 发 展 。 
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R2 同一 社区 学 者 之 间 合 作 预 测 值 得 分 表 


目标 学 者 ”同一 社区 其 他 学 者 得 分 
赵 宇 翔 21.794 
张磊 10.503 
IKTE 8.044 
AE 6.496 
刘 周 颖 4.960 
DES 4.395 
饶 俊 丽 3.330 
xij 1t 3.243 
Ax 3.143 
刘炜 iB EUH 3.140 
Ud 3.138 
ERE 3.059 
宋 小 康 2.993 
DRE 2.695 
[ps 2.695 
EHZ 2.063 
韩文 婷 1.731 
宋 士 杰 1.731 
汪 莉 0.909 


10 学 者 刘炜 所 在 社区 的 学 者 合作 关系 图 谱 


@ 结 语 


随 着 数字 时 代 的 深入 发 展 ，“ 数 字 人 文 ” 
对 实施 文献 抢救 性 保护 、 提 供 公共 文化 服务 、 
弘扬 中 华 民族 优秀 传统 文化 等 方面 都 具有 重要 
的 现实 意义 。 在 我 国 ， 数 字 人 文 作 为 专业 学 术 
研究 已 开始 加 速 发 展 ， 而 且 由 这 种 跨 学 科 的 研 
究 范式 孕育 而 生 的 研究 成 果 也 将 通过 更 多 的 合 


474 


作 形 式 来 呈现 。 对 于 科研 工作 者 来 说 ， 合 作 能 
够 促使 学 者 产生 新 的 想法 、 新 的 研究 思路 ， 能 
够 提高 合作 者 的 产 出 量 和 影响 力 ; 对 于 学 科 发 
展 来 说 ， 合 作 能 够 促使 新 的 知识 体系 的 形成 ， 
开阔 学 者 的 知识 视野 和 更 新 学 者 的 知识 结构 ， 
在 帮助 学 者 们 快速 高 效 地 寻找 与 自己 研究 兴趣 
和 方向 高 度 关 联 的 跨 学 科学 者 、 加 强 交流 合作 
的 同时 推动 数字 人 文 的 多 学 科 深度 融合 发 展 。 
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本 文 利用 处 理 复 杂 关 联 数据 的 利 融 一 一 图 数据 
库 Neo4j 对 我 国 数字 人 文 的 研究 主体 ( 即 学 者 ) 
及 其 间 关 系 进 行 存 储 分 析 ， 利 用 GDS 算法 库 实 
现 了 学 者 合作 社区 的 发 现 、 核 心 学 者 的 识别 以 
及 合作 趋势 的 预测 。 虽然 社会 网 络 分 析 方 法 从 
中 心性 、 凝 聚 子 群 、 核 心 一 边缘 等 不 同 角度 在 
各 种 关联 网 络 结构 的 分 析 中 非常 普遍 ， 但 是 本 
文 利用 图 数据 库 Neo4j 实现 了 传统 的 社会 网 络 
分 析 方 法 能 够 达成 的 功能 外 ， 还 实现 了 数据 存 
储 、 实 时 更 新 、 即 查 即 得 、 预 测 推 理 等 功能 ， 
这 是 对 社会 网 络 分 析 方 法 的 有 力 补充 ， 为 社会 
网 络 分 析 提 供 了 新 的 思路 与 方法 。 

此 外 ， 本 文 的 不 足 之 处 在 于 : 中 在 获取 相 
关 文 献 时 忽略 了 一 些 篇 名 没有 以 “数字 人 文 ” 
或 “人 文 计算 ”命名 但 研究 内 容 为 “数字 人 文 ” 
的 研究 成 果 , 使 得 学 者 节点 和 关系 数据 量 偏 小 ， 
在 完整 性 上 稍 有 欠缺 ， 书 数据 量 越 大 ， 复 杂 度 
越 高 ,图 数据 库 Neo4j 处 理 数据 的 优势 就 越 明 显 ， 
但 本 文 在 研究 图 数据 库 Neo4j 的 功能 应 用 上 较 
为 简单 , 没有 很 好 地 发 挥 出 其 数据 分 析 的 优势 。 
因此 ， 在 未 来 的 研究 中 ， 笔 者 将 继续 深入 学 习 
Neo4j 极其 强大 的 数据 分 析 功 能 ， 不 断 扩大 更 新 
学 者 的 数据 量 ， 从 而 充分 展现 学 者 之 间 复 杂 的 
合作 关系 ， 为 学 者 们 进行 潜在 科研 合作 提供 借 
鉴 。 
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Analysis of Scholar Collaboration Map Based on Graph Database Neo4j 
Taking the Field of Digital Humanities as an Example 


Xiong Huixiang Huang Xiaojie Chen Ziwei Li Xinran 
School of Information Management, Central China Normal University, Wuhan 430079 

Abstract: [Purpose/Significance] In the context of deep digital development, digital humanities as a 
development field of interdisciplinary deep integration, the scientific research cooperation among scholars 
1s becoming more and more frequent. It is necessary to analyze and excavate the increasingly complex 
cooperation relationship, to help scholars obtain potential cooperation opportunities to promote academic 
exchanges. [Method/Process] In this paper, scholars, institutions and keywords were used as node data, 
and coauthors, citations, posts and research topics were used as relational data to build scholar-collaboration 
graphs, which was stored based on the graph database Neo4j. Cypher query language and GDS algorithm 
library were used to analyze the cooperation community discovery, core scholar identification and cooperation 
trend prediction of scholars in the field of digital humanities. [Results/Conclusion] The experimental results 
show that Neo4j can better realize the construction and analysis of scholars’ cooperation network in the field 
of digital humanities. It can help scholars quickly find interdisciplinary scholars who are highly related to 
their research interests and directions among many researchers, so as to promote scholars’ cooperation and 
discipline development in the field of digital humanities. 
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